BlueField DPU
基本信息
- 全称:NVIDIA BlueField Data Processing Unit(数据处理单元)
- 类型:自建业务(源自 2019 年收购 Mellanox)
- 首次提及:2021-04 GTC 2021 春 - AI Factory 概念
- 提及次数:6 次(GTC 2021 春/秋、GTC 2022 春、FY24 财报均有提及)
定义
BlueField DPU 是 NVIDIA "三芯片战略"(CPU + GPU + DPU)中的第三颗芯片。它的核心功能是将数据中心基础设施处理——网络、存储、安全、虚拟化——从 CPU 上卸载下来,让 CPU 能专心跑应用和 AI 工作负载。
黄仁勋解释其必要性的逻辑非常清晰:"每年出货的大约 3000 万台数据中心服务器里,大约 1/3 的 CPU 核心被基础设施软件栈吃掉了——这个工作负载的增长比摩尔定律快得多。如果不卸载并加速它,数据中心能跑应用的 CPU 就会越来越少。"
发展历程
- 2019:NVIDIA 以 69 亿美元收购 Mellanox,获得 InfiniBand 和 SmartNIC 技术,BlueField 系列是 Mellanox 的核心产品线之一。(2023-10 Acquired - 黄仁勋深度访谈)
- 2021 年 4 月(GTC 2021 春):黄仁勋正式将 BlueField DPU 定位为 NVIDIA 的第三颗芯片,宣布"NVIDIA 现在是一家三芯片公司"。发布 BlueField-3(220 亿晶体管,400 Gbps 网络,16 个 ARM 核,内置 VMware ESX 虚拟化栈)并预告 BlueField-4(800 Gbps,加入 AI 计算)。"每 18 个月一代,3 年内 100 倍提升。"(2021-04 GTC 2021 春 - AI Factory 概念)
- 2021 年 11 月(GTC 2021 秋):BlueField-3 DPU 配合 Quantum-2 网络平台,开启"云原生超级计算"新范式。(2021-11 GTC 2021 秋 - Omniverse 与数字孪生)
- 2022 年 3 月(GTC 2022 春):BlueField-3 DPU 成为 NVIDIA Spectrum-4 网络平台(全球首个 400 Gbps 端到端网络)的核心组件,配合 ConnectX-7 SmartNIC 和 DOCA 软件。(2022-03 GTC 2022 - Hopper H100 与 AI Factories)
- 2023 年 Q1(FY24 财报):黄仁勋在财报电话会中确认 BlueField-3 已量产:"我们正在推出一整波新产品:H100、Grace CPU 和 Grace Hopper 超级芯片、BlueField-3、Spectrum-4——它们都已经在量产。"(2023-Q1 NVIDIA FY24 财报 - iPhone 时刻)
黄仁勋对它的评价
"我们需要一种新的芯片,一种专为数据中心基础设施处理而设计的芯片——NVIDIA BlueField DPU。"
——2021-04 GTC 2021 春 - AI Factory 概念"每年出货的大约 3000 万台数据中心服务器里,大约 1/3 被这些基础设施软件栈吃掉了——这个工作负载的增长比摩尔定律快得多。如果不卸载并加速它,数据中心能跑应用的 CPU 就会越来越少。BlueField 的时代来了。"
——2021-04 GTC 2021 春 - AI Factory 概念"NVIDIA 现在是一家三芯片公司——加上 Grace CPU,加上 BlueField-3 DPU。"
——2021-04 GTC 2021 春 - AI Factory 概念
三芯片战略
BlueField 的战略意义不能脱离"三芯片"框架来理解:
| 芯片 | 定位 | 负责什么 |
|---|---|---|
| GPU | 计算引擎 | AI 训练与推理、图形、科学计算 |
| Grace CPU | 数据引擎 | 通用计算、数据预处理、操作系统 |
| BlueField DPU | 基础设施引擎 | 网络、存储、安全、虚拟化 |
黄仁勋在 GTC 2021 春宣布:"NVIDIA 的数据中心路线图现在由三颗芯片构成。每种架构两年一代,中间可能还有 tick。一年聚焦 x86 平台,一年聚焦 ARM 平台,每年都会有新品。三颗芯片,年年迭代,一套架构。"
这条路线图后来演化为 Grace Hopper(GH200)→ Grace Blackwell(GB200)→ Vera Rubin 的超级芯片系列,DPU 的网络功能也逐步被整合进这些超级芯片的系统架构中。
BlueField 代际
| 代际 | 关键参数 | 首次公布 |
|---|---|---|
| BlueField-2 | 200 Gbps | 2020 |
| BlueField-3 | 400 Gbps,220 亿晶体管,16 ARM 核 | GTC 2021 春 |
| BlueField-4(预告) | 800 Gbps,加入 AI 计算 | GTC 2021 春 |
体现的核心概念
- 数据中心即计算机 —— DPU 让数据中心的网络层可编程
- 加速计算 —— 不只 GPU 加速计算,DPU 加速基础设施
- Extreme Co-Design —— GPU + CPU + DPU 三芯片协同设计